import pandas as pd
import re

df_xlsx = pd.read_excel(r'.\data\网点ERP收入202107(1).xlsx','累计', header=None)
df_hs = pd.DataFrame()
# 机构编码   机构名称
df_all = pd.DataFrame()

# 053   253 开头  135个网点  营业所 部 机要室 收订班  零售班
df_all = df_xlsx.iloc[6:4940,0:5]
""" def lamda(x):
    if x === 'NaN' :
        return False
    elif re.match('^[053|253]',df_all.iloc[0,0])==='None':
        return False
    else:
        return True
 """

flag = re.match('^[053|253]',df_all.iloc[0,0])
flag = re.match('营业所$','中国邮政集团有限公司河北省故城县故城镇邮政支局营业所')
print(flag)

# df_all = df_all.dropna(how='any')

df_all[0] = df_all[0].ffill()
df_all[1] = df_all[1].ffill()

df_hs = df_all.loc[df_all[0].apply(lambda x : True if re.match('^053|^253',x) else False),:]
# print(df_hs)
# df_hs_end = df_hs.loc[df_hs[1].apply(lambda x: False if re.match('营业所$|部$|机要室$|收订班$|零售班$',x) else True),:]

# print(df_hs[1].apply(lambda x: False if re.match("['营业所'|'部'|'机要室'|'收订班'|'零售班']$",x) else True))

# df_hs.columns = ['机构编码','机构名称','事业部标识','收入','同比']
# df_hs_groupby = df_hs.groupby(0)
# df_hs_groupby_list = list(df_hs_groupby)

# 去掉 含 营业所 部 机要室 收订班  零售班  的机构
df_hs_end = df_hs.loc[df_hs[1].apply(lambda x: False if x.endswith(('营业所','部','机要室','收订班','零售班')) else True),:]
# print(df_hs_end)

df_hs_end_groupby = df_hs_end.groupby(0)
df_hs_end_groupby_list = list(df_hs_end_groupby)

# print(df_xlsx.describe())
# print(df_xlsx.index)
# print(df_xlsx.columns)
# print(df_all.iloc[:,[0,1]])
# print(df_all)
# print(flag)
# print(df_all[0])
print(type(df_hs_end_groupby_list[0][1]))
print(len(df_hs_end_groupby_list))


# df_hs.to_excel(r'.\data\hs.xlsx', sheet_name='Sheet1')
# df_hs.to